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Beschreibung 

Verfahren zur Sprachanalyse 

5 Die Erfindung betrifft ein Verfahren zur Sprachanalyse, bei 
dem einer sprachlichen Aulierung eine syntaktische Struktur 
zugeordnet wird. Dazu wird die Aufierung in Spracheinheiten 
unterteilt. In den haufigsten Fallen wird die Unterteilung so 
vorgenommen, dass ein Wort eine Spracheinhei t bildet. Dann 
10 wird diesen Spracheinheiten jeweils eine Sprachkategorie zu- 
geordnet. Die Sprachkategorien der Spracheinheiten in einer 
syntaktischen Struktur geben ihre grammatische Funktion wie- 
Ijfl^/ der. 

15 Die syntaktische Struktur einer sprachlichen Aulierung erhalt 
man durch sukzessive Anwendung von Sprachstrukturregeln, die 
die Grammatik bilden. Die Anwendung einer Sprachs trukturregel 
wird als Aktion- ,b£zeichnet . Bei der Sprachanalyse wird aus- 
gehend von einem Ausgangszustand die Sprachkategorie der ers- 

20 ten Spracheinheit herangezogen . Der Kombination aus Sprachka- 
tegorie und Spracheinheit wird bei einer deterministischen 
Sprache, etwa einer Computersprache, eine bestimmte Aktion 
zugeordnet. Diese Vorgehensweise ist zum Beispiel von Compi- 
lern bekannt, wobei in einem Parsingver f ahren die Zuordnung 

25 uber eine Parsingtabelle erfolgt. 

Bei einer naturlichen Sprache, die Mehrdeut igkei ten aufweist, 
kann in vielen Fallen nicht mehr eine bestimmte Aktion zuge- 
ordnet werden, sondern es sind entsprechend der Mehrdeutig- 

30 keit der Sprache mehrere Aktionen zuordenbar . Fur das Auf fin- 
den einer bevorzugten syntaktischen Struktur, wie es in der 
Sprachanalyse in der Regel gefordert wird, werden den Aktio- 
nen unterschiedliche Wahrscheinlichkei ten zugeordnet. Durch 
Ausfiihren der Aktionen werden ausgehend vom gegebenen Zustand 

35 eine Anzahl von Folgezustanden bestimmt. Bei alternativen Ak- 
tionen konkurrieren alle moglichen Folgezustande miteinander, 
was man dazu nutzen kann, diejenigen Folgezustande mit 
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schlechteren probabilistischen Bewertungen von der weiteren 
Betrachtung auszuschlieilen . J. H. Wright und E. N. Wrigley 
"GLR-Parsing with Probability" in M. Tomita "Generalized LR- 
Parsing", Kluwer Academic Publishers, Boston, 1991, realisie- 
ren auf diese Art eine Form der Suche, bei der nur die besten 
konkurrierenden Folgen von Aktionen und Folgezustanden fur 
die weitere Analyse verwendet werden. 

Das Problem besteht nunmehr darin, die Wahrscheinlichkeiten 
fur die unterschiedlichen Aktionen zu bestimmen. T. Briscoe 
und J. Carroll "Generalized Probabilistic LR-Parsing of Natu- 
ral Language (Corpora) with Unification-Based Grammars" in 
"Computational Linguistics", Vol. 19, No. 1, 1993 ermi ttel^W 
diese Wahrscheinlichkeiten kontextabhangig, indem sie sie von 
den Folgezustanden und den Sprachkategorien abhangig machen. 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, ein 
Verfahren zur rechnergestut zten Sprachanalyse, insbesondere 
zum Parsing, zur Verfugung zu stellen, mit dem sich prazisere 
und aussagekraftigere Wahrscheinlichkeiten fiir die einzelnen 
Aktionen ermitteln lassen. 

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Patentanspruchs 1 gelost . 

In den Verfahren nach dem Stand der Technik werden die Wahr^ 
scheinlichkeiten fur die Aktionen immer nur in Abhangigkeit 
von den in einem Parsingverf ahren in der Parsingtabel le syn- 
taktischen Groflen ermittelt. Diese Groiien werden als Kontext 
im engeren Sinne bezeichnet und sind Sprachkategorie, Zustan- 
de, einschliefilich Folgezustande, und Aktionen. Das erfin- 
dungsgemafie Verfahren geht dariiber hinaus, indem es auch syn- 
taktische Groiien fiir die Berechnung der Wahrscheinlichkeiten 
berucksichtigt, die bei den Verfahren nach dem Stand der 
Technik weder bei der Berechnung der Wahrscheinlichkeiten, 
noch sonst bei der Zuordnung einer Aktion zur Kombination von 
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Zustand und Sprachkategorie Eingang finden. Diese syntakti- 
schen GrofJen bilden den erweiterten Kontext. 

Eine im erweiterten Kontext bevorzugte syntaktische Grbfie ist 
der Dialogakt der Aulierung. Wenn die Aulierung zum Beispiel 
den Dialogakt "Begruiiung" aufweist, es sich bei der Aulierung 
also um eine Begruiiungsf ormel handelt, ergeben sich fur die 
Wahrscheinlichkeiten zu einer Kombination von Zustand und 
Sprachkategorie andere Werte, als sie sich fur dieselbe Kom- 
bination von Zustand und Sprachkategorie bei einer Aulierung 
mit dem Dialogakt "Schilderung" ergeben. 

Im Gegensatz zum Kontext im engeren Sinne, der nur die 
Sprachkategorie einer Spracheinheit enthalt, kann der erwei- 
terte Kontext auch die Spracheinheit selbst enthalten. Mit 
dieser Spracheinheit selbst konnen weitere Inf ormationen ver- 
knupft sein, die bei der Ermittlung der Wahrscheinlichkeiten 
und damit letztlich bei der Bewertung der Aktionen beriick- 
sichtigt werden. Dartiber hinaus konnen die Wahrscheinlichkei- 
ten noch von weiteren Spracheinhei ten der Aulierung abhangen. 

Eine weitere im erweiterten Kontext bevorzugte syntaktische 
Grolie ist der Sprachstil, mit dem die Spracheinheit und/oder 
die Aulierung wiedergegeben wurde. Diese Grolie tritt selbst- 
verstandlich nur auf, wenn die zu analysierende Aulierung tat- 
sachlich gesprochene Sprache ist oder ihr anderweitig ein 
Sprachstil zugeordnet wird. 

Fur eine einfachere Analyse empfiehlt es sich, den Sprachein- 
heiten eine Reihenfolge zuzuteilen und sie in dieser Reihen- 
folge abzuarbeiten . Die einfachste und in der Regel sinn- 
vollste Reihenfolge ergibt sich dabei aus der Reihenfolge der 
Spracheinheiten in der Aulierung. Moglich ist aber zum Bei- 
spiel auch die umgekehrte Reihenfolge der Spracheinheiten in 
der Aulierung. 
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In der Regel wird das zur Verfiigung stehende Datenmaterial 
nicht ausreichen, urn die Abhangigkeit der Wahrscheinlichkei- 
ten von alien syntaktischen Grofien im erweiterten Kontext zu 
bestimmen. Es ist deshalb vorteilhaf t, mehrere syntaktische 
5 Grofien des Kontextes zu einem Subkontext zusammenzuf assen und 
die Wahrscheinlichkeit einer Aktion in einem Kontext durch 
eine Verrechnung der Wahrscheinlichkeiten der Aktion in den 
Subkontexten zu approximieren. 



10 Es empfiehlt sich, fur das Verfahren zur rechnergestiitzten 
Sprachanalyse auf ein stochastisches Parsing, insbesondere 
ein stochastisches LR-Parsing, zuriickzugreif en, da diese Ver- 
fahren hinreichend bekannt und implement iert sind. Das sto^P' 
chastische LR-Parsing hat dabei noch den Vorteil einer sehr 
hohen Verarbeitungsgeschwindigkeit. Dies gilt insbesondere, 
wenn fur das Zuordnen einer oder mehrere Aktionen zu einer 
Kombination von Zustand und Sprachkategorie eine Parsingta- 
belle verwendet wird. 



15 



20 



Wenn man bei einem solchen Parsing mit einem Stack arbeitet, 
hat es sich in Zusammenhang mit der Erfindung als vorteilhaft 
erwiesen, dass der erweiterte Kontext das nicht-terminale 
Grammatiksymbol des obersten Stackelementes oder den Phrasen- 
kopf des obersten Stackelementes enthalt. 

Weitere wesentliche Merkmale und Vorteile der Erfindung erge-' 
ben sich aus der Beschreibung eines Ausf iihrungsbeispiels an- 
hand der Zeichnungen; dabei zeigt 

30 Figur 1 eine Zuordnungstabelle far die Zuordnung von Aktionen 
zu Kombinationen von Zustand und Sprachkategorie, 

Figur 2 eine kontextfreie Grammatik, 

35 Figur 3 eine einer BeispielauJJerung zugeordnete syntaktische 
Struktur, 
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Figur 4 eine andere, derselben Beispielaufierung zugeordnete 
syntaktische Struktur, und 

Figur 5 eine Folge von LR-Stacks. 

Bei naturlichen Sprachen treten strukturelle Mehrdeutigkeiten 
auf, die fur eine Reihe von Anwendungen, wie z. B. maschinel- 
le Obersetzung und Sprachsynthese, aufgelost werden mussen. 
Solche Mehrdeutigkeiten und das erf indungsgemafte Verfahren 
sollen hier an dem deutschsprachigen Beispiel „Die Frau sah 
das Kind mit dem Fernglas* 1 erlautert werden. Diese AuBerung 
ist insofern zweideutig, als er zum Einen bedeuten kann, dass 
die Frau durch das Fernglas schaut und dabei das Kind sieht. 
Zum Anderen kann die Auflerung bedeuten, dass die Frau das 
Kind sieht, das ein Fernglas bei sich hat. 

Im Verfahren zur rechnergestutzten Sprachanalyse wird die Au- 
fierung nun zunachst in Spracheinheiten unterteilt, wobei je- 
des Wort eine Spracheinheit bildet. Dann werden die Sprach- 
einheiten jeweils Sprachkategorien zugeordnet : „Die xx der Ka- 
tegorie „Det xx fur „Artikel xx , „Frau w der Kategorie „N XX fur 
„Substantiv xx , „sah* der Kategorie „V* fur „Verb\ „das xx der 
Kategorie „Det xx fur „Artikel xx , „Kind xx der Kategorie „N XX fur 
„Substantiv* , „mit* der Kategorie „Prep* fur /; Praposition w , 
„dem* der Kategorie „Det* fur „Artikel xx und „Fernglas xx der 
Kategorie „N XX fur „Substantiv xx . 

Die weiteren Schritte werden anhand von Figur 1 erlautert, 
die den Spezialfall einer Parsingtabelle darstellt, an der 
aber auch das allgemeine Prinzip des Verfahrens gut nachvoll- 
zogen werden kann. Zunachst wird ein Zustand „0 VX bestimmt. 
Als nachstes wird der Zustand „0* mit der Sprachkat egor ie 
„Det* der ersten Spracheinheit der Aufierung kombiniert. Dann 
wird der Kombination von Zustand „0 XX und Sprachkategor ie 
„Det xx eine Aktion „sl xv zugeordnet. Da die Aufterung an dieser 
Stelle noch eindeutig ist, erfolgt die Zuordnung mit der 
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Wahrscheinlichkeit 1. Die Aktion ist „sl* („shift 1*), was 
bedeutet, dass der Folgezustand „1* bestimmt wird. 



Ausgehend von diesem Folgezustand wird nun das Verfahren er- 
neut ab dem Kombinieren des Zustands mit der Sprachkategorie 
einer Spracheinheit ausgefuhrt. Im Beispiel wird den Sprach- 
einheiten und damit auch ihren Kategorien die Reihenfolge de 
Spracheinheiten in der AuJJerung zugeteilt. Deshalb wird der 
Folgezustand „2* mit der Sprachkategorie „N* der nachsten 
Spracheinheit „Frau* kombiniert. Dieser Kombination des Zu- 
stands „1* mit der Sprachkategorie „Frau* wird dann die Akti- 
on „s3* zugeordnet und durch das Ausfuhren der Aktion „s3* 
(„shift 3*) der Folgezustand „3* bestimmt. jftif 

Diese Vorgehensweise wird weiter fortgefiihrt, wobei neben der 
„shif t* -Aktionen, die nur zum Bestimmen eines neuen Zustands 
fiihren, auch noch „reduce* -Aktionen auftreten. Diese redu- 
ce* -Aktionen bewirken ziinachst das Ausfuhren einer Grammatik- 
regel, wobei die Aktion „rn* die Anwendung der Strukturregel 
(n) bewirkt . 



Ein Beispiel fur eine solche Grammatik ist in Figur 2 darge- 
stellt. Es handelt sich dabei urn eine kontextfreie Grammatik 
mit sechs Regeln. Dabei steht das Symbol „NP* fur Nominal- 
phrase*, das Symbol „PP* fur „Prapositionalphrase* und das* 
Symbol „VP* fur „Verbalphrase" . ' 

Wird zum Beispiel der Kombination von Zustand (3) und Sprach- 
kategorie „V* die Aktion „r2 m zugeordnet, so wird zunachst 
Regel (2) der Grammatik ausgefuhrt und die Sprachkategor ien 
„Det m und „N* zu der Sprachkategorie „NP* reduziert. Dann 
wird unter der Spalte „NP* der Parsingtabelle nach Figur 1 
der Befehl „g2 m ausgefuhrt und am Ende des Ausfuhrens der Ak- 
tion schliefllich der Folgezustand „2 m bestimmt. 

Weiterhin stehen in der Parsingtabelle nach Figur 1 die Sym- 
bole „$* fur w Satzende\ .Utterance^ fur „AuJierung* und „ac- 



2000P12750 DE 



11 

P(T)*Y\P{a dJ \k dJ ) 

wobei die Struktur T durch |d| viele Aktionen a d ,- entstanden 
ist, die mit dem Laufindex j (j=l...|d|) geordnet sind. k 3 , : 
sei der Kontext, in dem die Aktion a d ,j ausgefiihrt wird. 
Die Wahrscheinlichkeiten P (a d , j I k d ,j ) seien dabei durch die Ap- 
proximation 

P(a | A) = I*,) 

berechnet. Mit K A seien die oben erwahnten Subkontexte be- 
zeichnet. Die oci seien geeignet gewahlt, wobei die Summe tiber 
alien <Xi 1 ergibt . 

Die Wahrscheinlichkeiten werden nicht unbedingt a priori er- 
stellt, sondern erst in der jeweiligen Zuordnungssi tuation . 
Gerade bei groiien Tabellen wurde eine Berechnung aller even- 
tuell auftretenden Wahrscheinlichkeiten eine unangemessenen 
und zum groiiten Teil auch unnotigen Rechen- und Zeitaufwand 
bedeuten . 
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Patentanspriiche 

1. Verfahren zur rechnergestiitzten Sprachanalyse, bei dem e 
ner sprachlichen Aufierung eine syntaktische Struktur zugeor 
net wird, mit 

- einem Kontext im engeren Sinne fiir Kombinat ionen von Zu- 
standen und Spracheinheiten, der aus Sprachkategorien, Zu 
standen, einschliefilich Folgezustanden, und Aktionen be- 
steht, 

- einem erweiterten Kontext fiir die Kombinat ionen von Zusta 
den und Spracheinheiten, der syntaktische Groiien enthalt, 
die nicht im Kontext im engeren Sinne enthalten sind, 

und mit folgenden Schritten 

- Unterteilen der Aufierung in die Spracheinheiten, 

- Zuordnen der Spracheinheiten zu den Sprachkategorien, 

- Bestimmen eines Zustands, 

- Kombinieren des Zustands mit der Sprachkategorie einer 
Spracheinheit , 

- Zuordnen einer oder mehrerer Aktionen zur Kombination von 
Zustand und Sprachkategorie mit einer Wahrscheinlichkeit , 
die vom erweiterten Kontext abhangt, 

- Bestimmen einer Anzahl von Folgezustanden durch Ausfuhrun< 
der Aktionen, und 

- erneutes Ausfuhren des Verfahrens ab dem Kombinieren des 4 
Zustands mit der Sprachkategorie einer Spracheinheit fur 
zumindest einen der Folgezustande, so dass weitere Sprach- 
einheiten der Auflerung abgearbeitet werden. 

2 . Verfahren nach Anspruch 1 
dadurch gekennzeichnet , 

dass der erweiterte Kontext den Dialogakt der AuGerung ent- 
halt. 

3. Verfahren nach zumindest einem der Anspruche 1 oder 2, 
dadurch gekennzeichnet, 
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class der erweiterte Kontext die Spracheinheit selbst und/ode 
weitere Spracheinheiten der Auflerung enthalt. 

4. Verfahren nach zumindest einem der vorstehenden Anspruche 
dadurch gekennzeichnet , 

dass der erweiterte Kontext den Sprachstil enthalt, in dem 
die Spracheinheit und/oder die Aufierung besprochen wurde, 

5. Verfahren nach zumindest einem er vorstehenden Anspruche, 
dadurch gekennzeichnet, 

dass den Spracheinheiten eine Reihenfolge zugeteilt wird und 
dass die Spracheinheiten in der Reihenfolge dieser Zuteilung 
abgearbeitet werden . 

6. Verfahren zumindest nach Anspruch 5, 
dadurch gekennzeichnet, 

dass die zugeteilte Reihenfolge der Reihenfolge oder der um- 
gekehrten Reihenfolge der Spracheinheiten in der Auiierung 
entspricht . 

7. Verfahren nach zumindest einem der vorstehenden Anspruche, 
dadurch gekennzeichnet, 

dass der erweiterte Kontext hinsichtlich der syntakt ischen 
Grbfien in mehrere Subkontexte aufgeteilt ist. 

8. Verfahren nach zumindest einem der vorstehenden Anspruche, 
dadurch gekennzeichnet, 

dass das Verfahren ein s tochastisches Parsing, insbesondere 
ein stochastisches LR-Parsing ist. 

9. Verfahren zumindest nach Anspruch 8, 
dadurch gekennzeichnet, 

dass das Zuordnen einer oder mehrerer Aktionen zu einer Kom- 
bination von Zustand und Sprachkat egor ie uber eine Parsingta- 
belle erf olgt . 

10. Verfahren zumindest nach Anspruch 8, 
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dadurch gekennzeichnet , 

dass das Verfahren einen Stack aufweist. 

11. Verfahren zumindest nach Anspruch 10, 
5 dadurch gekennzeichnet, 

dass der erweiterte Kontext eine extreme Sprachkategorie des 
Stacks enthalt. 

12. Verfahren zumindest nach Anspruch 10, 
10 dadurch gekennzeichnet, 

dass der erweiterte Kontext eine extreme nicht-terminale 
Sprachkategorie des Stacks enthalt. 
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Zur Bestimmung der Wahrscheinlichkeiten fur die Aktionen las- 
sen sich beim Arbeiten mit einem Stack noch weitere GroBen 
des erweiterten Kontexts auswerten. Dies ist zum einen die 
extreme Sprachkategorie im Stack, das heifit, die oberste oder 
unterste Sprachkategorie, die im jeweiligen Schritt im Stack 
vorhanden ist . 

Zum anderen hat sich eine Abhangigkeit von der extremen 
nicht-terminalen Sprachkategorie im Stack als sinnvoll erwie- 
sen. Eine kontextfreie Grammatik besteht aus Regeln, termina- 
len und nicht-terminalen Sprachkategorien und einem Startsym- 
bol. Fur die kontextfreie Grammatik nach Figur 2 ist „utte-jfe 
ranee* das Startsymbol. Auf der linken Seite der Pfeile ste- 
hen die nicht-terminalen Sprachkategorien. Fur diese Sprach- 
kategorien gibt es Regeln fiir eine Expansion. Im Gegensatz 
dazu existieren fiir die terminalen Sprachkategorien keine Ex- 
pans ionsrege In . 

Fur die BeispielauUerung werden die Wahrscheinlichkeiten, mit 
denen die Aktionen den Kombinationen von Zustand und Sprach- 
kategorie zugeordnet werden, in Abhangigkeit von Sprachkate- 
gorien, Zustanden, einschliefllich Folgezus tanden, Aktionen, 
Dialogakt, Spracheinheit , Sprachstil, extremen nicht-termina- 
len Sprachkategorien und extremen Sprachkategorien bestimmt^) 
Die Wahrscheinlichkeit P(T|W) einer syntaktischen Struktur T 
in Abhangigkeit von der Aulierung W ergibt sich aus: 

P(T\W) = P(T)P(W\T) 
wobei P(T) und P(W|T) wie folgt approximiert werden: 

p<w\T)*Y\ p <y»i\ l i) 

wobei wi die i-te Spracheinheit der Aulierung W ist und 1 : die 
wi zugeordnete Sprachkategorie. 
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auch die Spracheinheit „Frau" selbst, bzw. mit dieser Sprach- 
einheit verknupfte Informationen, wie etwa, dass die Sprach- 
einheit ^Frau* besonders haufig vor einer Prapositionalphrase 
steht. Im erweiterten Kontext kann diese Information nicht 
nur bei der Ermittlung der Wahrscheinlichkei ten fur Aktionen 
beriicksichtigt werden, die der Kombination aus einem Zustand 
und der der Spracheinheit „Frau Tl zugeordneten Sprachkategorie 
zugeordnet werden. Da der erweiterte Kontext fur jede Kombi- 
nation von Zustand und Sprachkategorie auch weitere Sprach- 
einheiten bzw. damit verkniipfte Informationen enthalten kann, 
ist es im erf indungsgemafien Verfahren namlich auch moglich, 
die mit der Spracheinheit „Frau m verknupfte Information auch 
an anderen Stellen des Verfahrens einflieiien zu lassen. 

Weiterhin kann auch die syntaktische Grolie „Sprachstil w bei 
der Ermittlung der Wahrscheinlichkeiten beriicksichtigt wer- 
den. Wenn zum Beispiel die Beispielaufterung im Sprachstil 
„Marchen w vorliegt, kann "dies zu anderen Wahrscheinlichkeiten 
fur die Aktionen fuhren, als wenn sie im Sprachstil „Zei- 
tungstext ,R vorliegt. 

Beim LR-Parsing wird in der Regel mit einem Stack gearbeitet. 
Ein Beispiel fur eine solche Arbeitsweise ist auszugsweise in 
Figur 5 abgebildet, wobei fur die Beispielauflerung nur die 
Alternative nach Figur 4 wiedergegeben ist. 

Zunachst wird ein Zustand „0* bestimmt. Als nachstes wird der 
Zustand „0* mit der Sprachkategorie „Det» der ersten Sprach- 
einheit der AuBerung kombiniert. Dann wird der Kombination 
von Zustand „0* und Sprachkategorie „Det' eine Aktion „sl w 
zugeordnet. Da die Auflerung an dieser Stelle noch eindeutig 
ist, erfolgt die Zuordnung mit der Wahrscheinlichkeit 1. Die 
Aktion ist „sl* („shift 1"), was bedeutet, dass der Folgezu- 
stand „1 R bestimmt wird und die Sprachkategorie der ersten 
Spracheinheit auf den Stack gelegt wird. Die Fortsetzung des 
Parsingverfahrens ergibt sich analog zu den obigen Ausfuhrun- 
gen in der fur Parsingverf ahren bekannten Vorgehensweise . 
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alternativen Strukturen jeweils eine Gesamtwahrscheinlichkei 
zuordnen. So kann die Auswahl einer wahrscheinlichsten Struk 
tur erfolgen, die zum Beispiel einer maschinelle Ubersetzung 
oder Sprachsynthese der Aufierung zugrunde gelegt werden kann 

Fur eine genaue Analyse ist es nunmehr von groiier Wichtig- 
keit, die Wahrscheinlichkeiten der Aktionen moglichst genau 
zu bestimmen. Nach dem Stand der Technik werden diese in Ab- 
hangigkeit folgender Grbflen ermittelt: Der Zustande, im Bei- 
spiel „0* bis „11*, einschliefilich der Folgezustande, da die 
se beim erneuten Ausfuhren des Verfahrens die Zustande bil- 
den, der Sprachkategorien, hier „Det* bis oder bis „Utte 

ranee*, und der Aktionen, im Beispiel „sl* bis ;/ s5" und 
bis „r6* . Diese syntaktischen Groflen bilden den Kontext im 
engeren Sinne, weil sie bei der Zuordnung der Aktionen zu de 
Kombinationen von Zustand und Sprachkategorie unmittelbar 
eingehen . 

Wesentlich ist nun, dass beim erf indungsgemaiien Verfahren die 
Wahrscheinlichkeiten in Abhangigkeit vom erweiterten Kontex- 
tes bestimmt werden. In diesem sind syntaktische GroBen ent- 
halten, die der Kontext im engeren Sinne nicht aufweist. Dar- 
uber hinaus kbnnen die Wahrscheinlichkeiten auch weiterhin 
vom Kontext im engeren Sinne abhangen. Dies ist zwar nicht 
zwingend erf orderlich, wird aber in der Regel sinnvoll sein^ 

So ist der Beispielauiierung der Dialogakt „Schilderung* zuge- 
ordnet. Wenn der gleichen BeispielauJierung dagegen der Dia- 
logakt „Frage* zugeordnet ware, so wurde dies zu anderen 
Wahrscheinlichkeiten fur die Aktionen fuhren, da in er natur- 
lichen Sprache eine Frage mit anderer Wahrscheinlichkei t eine 
bestimmte syntaktische Struktur hat als eine „Schilderung" . 

Gleiches gilt fur die syntaktische GroJie „Spracheinhei t w 
selbst. So konnte in der BeispielauJierung nicht nur die 
Sprachkategorie „Substantiv* der Spracheinheit „Frau* fur die 
Ermittlung der Wahrscheinlichkeiten verwertet werden, sondern 
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cept* fur das Ende des Verfahrens. Zum allgemeinen Zusammen- 
hang einer Grammatik, wie derjenigen nach Figur 2, mit einer 
Parsingtabelle, wie der nach Figur 1, vergleiche A.V. Aho, R . 
Sethi und J.D. Ullman ^Compilers: Principle, Techniques and 
5 Tools*, Addison Wesley, Reading, 1986. 

Bei den Kombinationen von Zustand „9* und Sprachkategor ie 
„Prep* und von Zustand ,,10* und Sprachkategorie „$* kommt es 
nun aufgrund der Mehrdeutigkeit der naturlichen Sprache zu 

10 einer mehrdeutigen Zuordnung von Aktionen. Das heifit, dass 
einer Kombination von Zustand und Sprachkategorie mehr als 
eine Aktion zugeordnet wird. Eine solche Situation ist mit 
einem deterministischen Verfahren nicht eindeutig auflosbar. 
Im gegebenen stochastischen Verfahren kann man die Mehrdeu- 

15 tigkeit allerdings durch die Zuordnung der unterschiedlichen 
Aktionen zu der Kombination von Zustand und Sprachkategorie 
mit einer gewissen Wahrscheinlichkei t vornehmen. So hat zum 
Beispiel fur die Kombination von Zustand „9* und Sprachkate- 
gorie „Prep* die Aktion „s5* die Wahrscheinlichkeit 0,7 und 

20 die Aktion „r6* die Wahrscheinlichkeit 0,3. In Figur 1 sind 
die Wahrscheinlichkeiten der einzelnen Aktionen jeweils in 
Klammern hinter den Aktionen angegeben. Wie diese Wahrschein- 
lichkeiten ermittelt werden, wird weiter unten erlautert. 

25 Fur die BeispielauUerung ergeben sich insgesamt die beiden 

moglichen Folgen von Aktionen „sl* — > „s3* „r2* — > „s4* — > 
„sl* -> „s3* -> „r2* -> „s5* -» /r sr „s3* „r2" -> „r6 w 
„r3* „r5* -» w rr -> accept und „sl m -> „s3" -> „r2* -> „s4* 
-> „sl % „s3* -> „r2* „s5* „sl* -> „s3* -> „r2* „r6* 

30 — > „r4* „rr -» accept. Dementsprechend werden der sprach- 
lichen Auflerung die beiden in den Figuren 3 und 4 als Parser- 
baume dargestell ten syntaktischen Strukturen zugeordnet. 

Wahrend des Verfahrens werden die Wahrscheinlichkeiten der 
35 auf einanderfolgenden Aktionen fur die jeweiligen Alternativen 
miteinander multipliziert , bzw. im Falle logarithmischer 
Wahrscheinlichkeiten addiert. Damit lasst sich den gefundenen 
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Zusammenf as sung 

Verfahren zur Sprachanalyse 

Die Erfindung betrifft ein Verfahren zur rechnergestiit zten 
Sprachanalyse, bei dem einer sprachlichen AuBerung eine syn 
taktische Struktur zugeordnet wird. Dabei werden Zuordnunge 
mit Wahrscheinlichkeiten vorgenommen, die von einem erweite 
ten Kontext abhangen. 
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